Application de modèles d’apprentissage machine à la classification des macromycètes

Emir Kaïs RIHANI

Introduction et objet de l’étude

Objet de l’étude

  • “Application de modèles d’apprentissage machine à la classification des macromycètes”
    • Apprentissage machine
    • Classification
    • Macromycètes

Notion de macromycète

Macromycètes

  • Macro-Mycète = “grand champignon”
  • Le champignon (mycélium) est en réalité quasi-invisible et intimement lié à son substrat
  • La partie visible du champignon est le sporophore

Critère de forme

Critère de couleur

Critère de texture

Critère écologique

  • Le champignon fait partie d’un écosystème
    • Hétérotrophie, interactions avec l’environnement

Caractéristiques du sporophore

Notion de classification

Classification

  • Classification binaire : oui/non
    • Comestible ou non ?
    • Définition précise du critère
  • Classification multiclasse : plusieurs catégories
    • Familles
    • Espèces
    • Syndromes

Notion de comestibilité

  • La comestibilité se situe sur un continuum :
    • Excellents comestibles : Tuber spp., Amanita caesaria
    • Comestibles : Agaricus arvensis
    • Comestibles cuits : Morchella spp.
    • Comestibles médiocres : Boletus felleus
    • Toxiques en grandes quantités : Tricholoma equestre
    • Toxiques : Amanita muscaria
    • Mortels : Amanita phalloides, Amanita virosa

Notion de comestibilité

C+ C CC C- T- T T+
Prudent
Gourmand
Toxicologue
  • Critères du “gastronome prudent”
    • Toxiques et comestibles médiocres : à rejeter
    • Comestibles cuits : à conserver (morilles !)

Notion d’apprentissage machine

Généralités

Analyse Discriminante Linéaire

Arbres de classification

Forêts aléatoires

Optimisation des modèles

  • Indicateur de performance
    • Indice de Youden pondéré (\(J_{w}\))
      • Indice synthétique pondérant spécificité et sensibilité
      • 10x plus grave d’accepter un non-comestible
    • Indice de Rand, Kappa
      • Reflet de la précision des prédictions (multiclasse)
  • Exploration de l’espace des hyperparamètres
    • Plans d’expériences

Plans hypercubiques latins

  • Plan d’expérience occupant tout l’espace
    • 1 ligne + 1 colonne = 1 expérience

Carré latin aléatoire (à gauche), optimisé (au milieu), quasi-orthogonal (à droite)

Génération du lot de données

Construction du lot de données

  • 398 espèces de champignons du Nord de la France

    • 25 critères caractéristiques
      • 22 critères qualitatifs
      • 3 critères quantitatifs
      • Espèce, famille, comestibilité
  • 200 spécimens par espèce : 79600 champignons

  • Tirage aléatoire des critères qualitatifs parmi les critères possibles pour chaque caractéristique et chaque espèce

Génération des critères quantitatifs

  • Critères dimensionnels :
    • Diamètre du chapeau \(D_{c}\),
    • Diamètre du pied (stipe) \(D_{S}\),
    • Hauteur du pied (stipe) \(L_{S}\).
  • Proportionnels, liés à la croissance du champignon \(F_{C}\). \[\left \{ \begin{array}{l} L_{S} = L_{S_{max}}.F_{C} \\ D_{S} = D_{S_{max}}.F_{C} \\ D_{C} = D_{C_{max}}.F_{C} \\ \end{array} \right.\]

Génération des critères quantitatifs : loi bêta

Induction de variabilité

  • Champignons générés “parfaitement proportionnés”
  • Nécessité d’induire des variations (dispersion \(\delta~\))

\[\left \{ \begin{array}{ll} L_{S} = L_{Smax}.F_{T}.\delta_{Ls} & \delta_{Ls} \sim \mathcal{N}(\mu = 1 ; \sigma = 0.05) \\ D_{S} = D_{Smax}.F_{T}.\delta_{Ds} & \delta_{Ds} \sim \mathcal{N}(\mu = 1 ; \sigma = 0.05) \\ D_{C} = D_{Cmax}.F_{T}.\delta_{Dc} & \delta_{Dc} \sim \mathcal{N}(\mu = 1 ; \sigma = 0.05) \\ \end{array} \right.\]

Induction de variabilité

Induction de variabilité

Classification binaire

Modèle naïf

LDA

Arbres décisionnels

Forêts aléatoires

Classification par familles

LDA

Arbres décisionnels

Forêts aléatoires

Classification par espèces

Forêts aléatoires